Temporal sentence grounding (TSG) aims to identify the temporal boundary of a specific segment from an untrimmed video by a sentence query. All existing works first utilize a sparse sampling strategy to extract a fixed number of video frames and then conduct multi-modal interactions with query sentence for reasoning. However, we argue that these methods have overlooked two indispensable issues: 1) Boundary-bias: The annotated target segment generally refers to two specific frames as corresponding start and end timestamps. The video downsampling process may lose these two frames and take the adjacent irrelevant frames as new boundaries. 2) Reasoning-bias: Such incorrect new boundary frames also lead to the reasoning bias during frame-query interaction, reducing the generalization ability of model. To alleviate above limitations, in this paper, we propose a novel Siamese Sampling and Reasoning Network (SSRN) for TSG, which introduces a siamese sampling mechanism to generate additional contextual frames to enrich and refine the new boundaries. Specifically, a reasoning strategy is developed to learn the inter-relationship among these frames and generate soft labels on boundaries for more accurate frame-query reasoning. Such mechanism is also able to supplement the absent consecutive visual semantics to the sampled sparse frames for fine-grained activity understanding. Extensive experiments demonstrate the effectiveness of SSRN on three challenging datasets.
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
参考分辨率旨在识别说话者所引用的实体,在现实世界中更为复杂:新的指称者可以由代理商参与和/或仅仅因为属于共享的物理设置而创建和/或显着。我们的重点是在多模式对话中解决对大屏幕显示上的可视化的引用;至关重要的是,参考分辨率直接参与创建新的可视化的过程。我们描述了通过语言和手势以及新实体建立在大屏幕上出现的可视化的用户引用的注释,这是由于执行用户请求创建新可视化而产生的。我们还描述了我们的参考分辨率管道,该管道依赖于信息状态体系结构来维护对话环境。我们报告有关检测和解决参考文献的结果,模型上下文信息的有效性以及创建可视化的请求不足。我们还尝试了常规的CRF和深度学习 /变压器模型(Bilstm-CRF和Bert-CRF),以在用户话语文本中标记参考。我们的结果表明,尽管CRF仍然表现出色,但转移学习显着提高了深度学习方法的性能,这表明传统方法可能会更好地概括为低资源数据。
translated by 谷歌翻译
手工重建在实时应用中取得了巨大的成功,例如视觉现实和增强现实,同时通过有效的变压器与双手重建相互作用。在本文中,我们提出了一种称为轻巧注意手(LWA手)的方法,以从单个RGB图像中重建低功能中的手。为了解决有效的注意力体系结构中的阻塞和相互作用挑战,我们引入了三个移动注意模块。第一个模块是一个轻巧的特征注意模块,该模块以粗到精细的方式提取局部遮挡表示和全局图像补丁表示。第二个模块是横图和图形桥模块,该模块融合了图像上下文和手顶点。第三个模块是一种轻巧的跨注意机制,它使用元素的操作来使两只手在线性复杂性中交叉注意。与最先进的模型相比,最终的模型在交流中获得了可比性的2.6m基准。同时,它将拖鞋降低到$ 0.47Gflops $,而最先进的型号的计算在$ 10gflops $ $至20Gflops $之间。
translated by 谷歌翻译
人群计数是一项回归任务,它估计场景图像中的人数,在一系列安全至关重要的应用程序中起着至关重要的作用,例如视频监视,交通监控和流量控制。在本文中,我们研究了基于深度学习的人群计数模型对后门攻击的脆弱性,这是对深度学习的主要安全威胁。后门攻击者通过数据中毒将后门触发植入目标模型,以控制测试时间的预测。与已经开发和测试的大多数现有后门攻击的图像分类模型不同,人群计数模型是输出多维密度图的回归模型,因此需要不同的技术来操纵。在本文中,我们提出了两次新颖的密度操纵后门攻击(DMBA $^{ - } $和DMBA $^{+} $),以攻击模型以产生任意的大或小密度估计。实验结果证明了我们对五个经典人群计数模型和四种类型数据集的DMBA攻击的有效性。我们还深入分析了后门人群计数模型的独特挑战,并揭示了有效攻击的两个关键要素:1)完整而密集的触发器以及2)操纵地面真相计数或密度图。我们的工作可以帮助评估人群计数模型对潜在后门攻击的脆弱性。
translated by 谷歌翻译
激光雷达语义分割的当前方法对于现实世界应用,例如自动驾驶,因为它是封闭式和静态的。封闭设置的假设使网络只能输出训练的类的标签,即使是从未见过的对象,而静态网络也无法根据所看到的知识来更新其知识库。因此,在这项工作中,我们提出了激光点云的开放世界语义细分任务,其目的是1)使用开放式语义分段确定旧类和新颖的类,以及2)逐渐将新颖对象纳入现有知识库中使用增量学习而不会忘记旧课程。为此,我们提出了一个冗余分类器(真实)框架,以为开放式语义细分和增量学习问题提供一般体系结构。实验结果表明,真实可以同时在Semantickitti和Nuscenes数据集中的开放式语义分割任务中实现最新性能,并在增量学习过程中减轻灾难性遗忘问题,并减少较大的利润率。
translated by 谷歌翻译
最近,在推荐系统领域中,一个关键问题隐约可见 - 没有进行严格评估的有效基准 - 因此,这会导致不可再生的评估和不公平的比较。因此,我们从实践理论和实验的角度进行研究,目的是为严格的评估做出基准建议。关于理论研究,一系列影响整个评估链中建议性能的超级因素通过对2017 - 2020年在八个顶级会议上发表的141篇论文进行的详尽评价进行了系统的总结和分析。然后,我们将它们分类为独立于模型和模型依赖性的超因子,并相应地定义和讨论了不同的严格评估模式。在实验研究中,我们通过将这些超级因子整合以进行严格的评估来发布DaisyREC 2.0文库,从而进行了整体经验研究,以揭示不同超级效应器对建议性能的影响。在理论和实验研究的支持下,我们最终通过提出标准化程序并在六个数据集上的六个评估指标中提供10个最先进的方法来创建严格评估的基准,以作为以后研究的参考。总体而言,我们的工作阐明了建议评估中的问题,为严格的评估提供了潜在的解决方案,并为进一步调查提供了基础。
translated by 谷歌翻译
图形神经网络(GNN)在解决图形结构数据(即网络)方面的各种分析任务方面已广受欢迎。典型的gnns及其变体遵循一种消息的方式,该方式通过网络拓扑沿网络拓扑的特征传播过程获得网络表示,然而,它们忽略了许多现实世界网络中存在的丰富文本语义(例如,局部单词序列)。现有的文本丰富网络方法通过主要利用内部信息(例如主题或短语/单词)来整合文本语义,这些信息通常无法全面地挖掘文本语义,从而限制了网络结构和文本语义之间的相互指导。为了解决这些问题,我们提出了一个具有外部知识(TEKO)的新型文本富裕的图形神经网络,以充分利用文本丰富的网络中的结构和文本信息。具体而言,我们首先提出一个灵活的异质语义网络,该网络结合了文档和实体之间的高质量实体和互动。然后,我们介绍两种类型的外部知识,即结构化的三胞胎和非结构化实体描述,以更深入地了解文本语义。我们进一步为构建的异质语义网络设计了互惠卷积机制,使网络结构和文本语义能够相互协作并学习高级网络表示。在四个公共文本丰富的网络以及一个大规模的电子商务搜索数据集上进行了广泛的实验结果,这说明了Teko优于最先进的基线。
translated by 谷歌翻译
通常针对具有特定模型的特定输入而生成的对抗性示例,对于神经网络而言是无处不在的。在本文中,我们揭示了对抗声音的令人惊讶的属性,即,如果配备了相应的标签,则通过一步梯度方法制作的对抗性噪声是线性分离的。从理论上讲,我们为具有随机初始化条目的两层网络和神经切线内核设置证明了此属性,其中参数远离初始化。证明的想法是显示标签信息可以有效地反向输入,同时保持线性可分离性。我们的理论和实验证据进一步表明,对训练数据的对抗噪声进行训练的线性分类器可以很好地对测试数据的对抗噪声进行分类,这表明对抗性噪声实际上将分布扰动注入了原始数据分布。此外,我们从经验上证明,当上述条件受到损害时,在它们仍然比原始功能更容易分类时,对抗性的噪声可能会变得线性分离。
translated by 谷歌翻译
图像分割是医学图像场中的重要任务,并且已经提出了许多基于卷积神经网络(CNNS)的方法,其中U-Net及其变体表现出了有希望的性能。在本文中,我们提出了基于U-Net的GP模块和GPU-Net,通过引入幽灵模块和不足的空间金字塔池(ASPP),可以了解更多样化的功能。我们的方法实现了更好的性能,参数较少的4倍以上,拖鞋的2倍,为未来的研究提供了新的潜在方向。我们的即插即用模块也可以应用于现有的分段方法,以进一步提高其性能。
translated by 谷歌翻译